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虚拟 软件 路 由 器 数据 包 转 发 性 


咒 鹏 杨建华 张建华 谢 高 岗 


摘 要 : 未 来 网 络 的 体系 结构 需要 根据 


网 络 的 基础 。 虚 拟 软件 路 


包 转 发 性 能 带 来 很 大 影响 。 
辣 的 虚拟 技术 和 可 扩展 路 


如 何在 


对 定位 虚拟 化 软件 路 由 器 的 转发 性 


关键 词 : 虚拟 化 软件 路 


1 引言 


近 几 年 来 ,网络 虚拟 化 成 为 一 项 被 广泛 关注 的 技术 。 虚 拟 路 
网 络 设备 ， 对 比 现 有 网 络 设备 有 以 下 了 


拟 成 多 全 路 


软件 进 4 
OpenVZ〔〈 操 作 系统 级 别 虚拟 化 ) 等 的 转发 性 能 ， 训 


器 支持 网 络 


网 络 业务 自 适应 整 ， 
虚拟 化 和 可 编程 的 特性 ， 


此 灵活 与 高 性 能 的 路 由 


一 个 物 
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能 实验 研究 


器 是 构建 未 来 


! 网 络 上 承载 多 个 不 同 网 络 


J 介 


绍 ， 


体系 结构 的 逻辑 网 络 ， 实 现 业务 创新 ， 具 有 和 良好 的 灵活 性 。 
保证 灵活 性 的 前 提 下 提高 转发 性 能 成 为 迫切 需要 解决 的 问题 。 
I 试 了 KVM (全 虚拟 化 ) Xen《〈 半 虚拟 化 入 
估 了 不 同 VO 加 速 技术 对 转发 性 能 的 提升 。 该 实验 数据 
EE 要 的 指导 意义 。 


E 能 瓶颈 ， 提 高 转发 性 能 具有 了 


器 转发 性 能 IO 加 速 


多 样 化 要 求 。 同 时 虚拟 路 由 器 还 能 
资源 ， 尽 可 能 提高 设备 的 资源 利用 率 。 如 ， 一 个 电信 运营 商 可 以 使 
一 个 大 公司 的 网 络 业 务 ， 使 用 另 一 个 虚拟 网 络 来 承载 多 个 小 公司 的 
完全 隔离 ， 提 高 了 网 络 的 鲁 棒 性 。2 ) 
备 可 以 支持 不 同 的 协议 栈 。 如 在 一 
中 完全 采用 新 的 协议 。 这 样 就 能 保 记 


一 、 


日 是 虚拟 化 所 带 3 


并 搭建 实验 平台 ， 涡 


销 会 给 虚拟 路 由 器 的 数据 


本 文 对 不 


器 人 


FE 为 虚拟 网 络 中 的 核心 


两 点 优势 : 1) 虚拟 路 由 器 外 
设备 , 多 个 虚拟 设备 并 行 处 理 不 同 的 业务 流量 
功能 扩展 ， 从 而 满足 物 联网 、 云 计算 服务 等 新 兴 应 用 对 不 同业 务 下 的 数据 包 处 理 策略 提出 的 
民 据 虚拟 网 络 的 应 用 规模 ,给 特定 的 虚拟 设备 分 配 特定 的 


在 一 个 由 虚拟 路 由 器 搭建 的 


台 虚 拟 设 备 中 采 有 


E 在 同一 个 物 到 


更 快 地 部 署 到 实际 网 络 中 。 


而 不 互相 和 干扰， 满足 对 未 来 互联 网 
能 提供 更 快捷 的 搭建 速度 ， 更 低廉 
网 的 发 展 ， 如 美国 的 GENI 项 目 


[3] 
> 


虚拟 网 能 在 不 影响 原 有 网 络 正 常 运行 的 条 们 


现 有 的 虚拟 路 


等 ) 设计 实现 虚拟 路 


大 突破 。 多 布雷 斯 库 (M. Dobrescu) 等 包 好 
基于 集群 方式 设计 实现 了 RouteBricks 软件 路 由 器 。 实 验 结果 表 
务 器 构建 的 RouteBricks 集群 ， 可 以 提供 高 达 35Gbps 
利用 GPU 的 强大 并 行 计 算 能 力 ， 研 制 出 单 
PacketShader。 专用 硬件 可 编程 平台 的 虚拟 路 
如 安 瓦尔 (M. B. Anwer) 等 四 首次 使 月 


1 Graphics Processing Unit， 图 形 处 


寸 ， 相 对 于 物理 
国家 各 


晶 .[ 
口 


究 的 需要 。 同 有 
的 搭建 成 本 。 目 前 许多 
欧盟 的 FIRE 项 目 外 


器 实现 平台 可 以 分 为 两 大 类 : i 
平台 使 用 可 扩展 的 路 由 器 软件 (如 Click 


F 下 满足 这 些 丰 


EE， 并 根据 业务 的 特性 提供 相应 和 


E 够 将 一 台 物 理 路 由 设备 虚 


WEY 


用 单独 
网 络 业 务 。 各 个 虚拟 网 络 
虚拟 网 上 ， 不 同 的 虚拟 设 
有 TCP/IP 协议 栈 ， 而 在 另 一 台 虚 拟 设 备 
网 络 的 基础 设施 上 ,并 行进 行 不 同 的 实验 
实验 网 络 ， 虚 拟 实验 网 络 
晶 织 正在 积极 研究 未 来 互联 


个 虚拟 网 来 承载 


了 许多 新 的 互联 网 架构 。 
究 的 实验 需求 , 将 这 些 先进 的 架构 


XORP 中 等 ) 和 虚拟 化 软 伯 


器 。 近 年 来 ， 基 于 通用 便 件 平台 


上 路 


E 充 分 挖 


硅 中 


理 右 
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1 器 使 用 专 月 
NetFPGA®*" 实现 了 多 个 虚拟 路 


F 可 


平台 与 专用 硬件 平台 。 通用 硬件 
F (如 Xende, OpenVZD2] 
器 在 转发 性 能 上 取得 了 较 
里 设备 的 吞吐 量 潜力 的 基础 上 ， 
明 ， 四 个 通用 硬件 平台 的 服 
} 率 。 韩 祥 进 (Sangjin Han) 等 中， 
上 率 可 达 39Gbps 的 通用 硬件 路 由 器 
新 设计 路 由 器 的 数据 平面 。 


器 的 数据 平面 。 每 


虚拟 软件 路 由 


个 数据 平面 采 有 
人 po 提出 了 一 种 可 本 


人 中 提出 了 硬 伯 
时 ， 可 以 将 该 虚拟 路 
的 数据 平面 迁移 到 软件 
移 到 软件 层面 ， 对 现场 可 编程 
水 架构 SwitchBlade， 支 持 硬 件 可 编 
议 的 快速 原型 设计 与 部 署 。 使 月 


F 可 重 构 和 软 


器 的 路 


程 ， 


底层 数据 平面 的 可 扩 
络 带宽 的 激增 对 路 


网 


全 | 
数据 包 处 理 。 


于 虚拟 化 、 可 扩 


展 性 。 


以 上 的 讨论 中 ， 无 论 采 用 


化 技术 的 引入 势 


台 已 


月 


销 进行 讨 


本 文 其 他 


> 


忆 早 


器 数据 包 转 发 性 


月 相同 的 结构 ， 可 以 实现 查 表 ， 转 发 等 功能 。 避 
0 置 的 数据 转发 引擎 一 一 CAFE。CAFE 通过 使 用 不 同 AP 配置 
得 到 不 同 的 数据 平面 ， 从 而 避免 了 重新 设计 人 硬件 。 
牛 硬件 迁移 的 概念 ， 即 当 某 个 虚拟 路 
表 拷 贝 到 硬件 上 ， 实 现 硬件 数据 平面 迁移 ， 而 将 原先 在 硬件 


门 阵列 写 入 新 的 逻辑 。 安 瓦尔 等 
从 而 在 保证 便 件 快速 转发 性 能 的 前 担 下， 支持 新 协 


专用 硬件 设计 的 虚拟 路 由 器 需要 在 保证 高 性 能 的 同时 ， 


乌 尼 克 里 希 南 


层面 ; 当 需 要 部 署 新 的 数据 平面 时 ， 则 可 以 : 


国 输 (音译 ，Guohan Lu) 


和 
等 


底层 硬件 


(Deepak Unnikrishnan ) 等 


1 器 需要 处 理 的 流量 增 大 


各 所 有 的 数据 平面 全 部 迁 


1 


会 对 路 由 器 IO 效率 产生 影响 。 


中 提出 了 一 种 模块 化 的 流 


采 证 


由 器 的 吞吐 率 提 出 了 非常 高 的 要 求 。 传 统 路 由 器 对 数据 包 的 处 理 过 
程 简 单 ， 在 数据 平面 和 控制 平面 上 做 了 充分 的 优化 ,提供 了 非常 高 的 吞吐 率 。 虚 拟 软件 路 由 
展 等 技术 特点 ， 需 要 提供 更 高 的 转发 性 能 ， 以 满足 各 种 新 兴业 务 的 深度 


那 种 设计 方案 ， 都 需要 使 用 到 虚拟 化 技术 ， 而 虚拟 


因此 ， 对 各 种 不 同 虚 拟 化 技术 所 带 来 的 性 


节 安 排 如 下 ,第 二 章 主要 对 虚拟 路 由 器 的 相关 技术 进行 介绍 , 包括 不 同 的 虚 


这 些 WO 加 速 技术 。 第 五 章 对 全 文 进 


拟 技术 的 原理 ， 几 种 可 扩展 路 | 


虚拟 路 由 器 1 


2 ”虚拟 化 软件 路 由 器 原理 与 实现 
2.1 虚拟 化 软件 路 由 器 
虚拟 软件 路 由 器 的 典型 框架 如 


图 1 所 示 ， 虚 拟 路 


器 由 三 大 组 件 


构成 : 虚拟 化 软件 平台 ， 数 据 转发 
模块 ， 控 制 模块 。 虚 拟 软 件 作 为 中 
间 层 (Hypervisor)， 给 不 同 虚 拟 机 
虚拟 VO 通 
专用 硬件 或 者 通用 网 
虚拟 机 内 部 则 可 以 运行 控制 
模块 计算 路 由 ， 或 者 用 于 承载 实验 
网 ， 进 行 新 协议 (如 OpenFlow 


提 
可 以 1 
成 。 在 


AN 


等 ) 的 实现 。 


) 论 


数据 转发 模块 
F 构 


草 。 


7] 


2.2 虚拟 化 实现 


? Application Programming Interfaces， 应 


虚拟 软件 路 由 器 所 使 有 


phy 


j 程 序 接 
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F 估 是 必要 的 。 本 文 测量 了 几 款 有 代表 性 的 用 虚拟 化 3 
性 能 ， 在 此 基础 上 评估 了 几 种 常见 的 IO 加 速 技术 ， 以 便 定 位 转发 性 能 瓶颈 ， 优 化 转发 性 


器 的 架构 等 。 第 三 章 对 几 种 常见 的 虚拟 软件 的 数据 包 转 发 性 
能 进行 了 测试 ， 并 给 出 实验 结果 。 第 四 章 介 绍 了 一 些 常见 的 WO 加 速 技术 ， 
行 总 结 ， 并 对 IO 加 速 研究 的 可 能 途径 进行 了 展望 。 


F 台 实现 的 软件 路 


器 的 转 


首 搭建 和 评估 了 


虚拟 路 由 器 2 


OpenFlow 


= 


phy 


图 1. 虚拟 路 由 


Hypervisor 


(中 间 层 ) 


*Forwarding Information Base, 


转发 信息 库 


器 框架 图 


目的 虚拟 化 技术 按照 虚拟 层次 的 不 同 ， 大 致 可 以 分 为 三 类 


第 8 卷 第 6 


加 ”全 虚拟 化 Full Virtualization ) 


全 虚拟 化 又 称 本 ] 
间 使 用 一 个 


信息 技术 快报 


Information Technology Letter 


作 系 统 执行 某 项 特权 指令 时 ，， 


件 的 某 个 寄存 器 写 入 一 个 值 等 。 
进行 任何 直接 控制 ， 而 必须 通过 ， 


人 


台 。 全 虚拟 化 技术 的 代 
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弛 虚拟 化 (Native Virtualization )。 该 技术 在 操作 系统 和 底层 硬件 之 
间 层 Hypervisor， 使 得 底层 硬件 能 够 被 上 层 操 作 系统 
间 层 将 接管 该 段 代码 ， 并 执行 对 应 的 操作 ， 如 给 某 个 硬 
于 在 全 虚拟 化 技术 中 , 客户 操 
间 层 进行 代理 ， 使 得 IO 性 
于 硬件 虚拟 化 技术 , 全 虚拟 化 技术 可 以 支持 不 同 的 操作 系统 , 但 是 不 能 模拟 不 同 硬件 
软件 为 VMware, KVML 等。 近年 来 一 些 新 的 X86 系列 的 CPU 


* 享 访问 。 当 客户 损 


作 系统 不 能 对 底层 硬件 
能 会 受到 一 定 影响 。 相 对 


月 去 


. 


在 指令 级 别 上 支持 全 虚拟 化 , 使 得 全 虚拟 化 环境 下 的 操作 系统 能 达到 原生 级 别 的 运行 速 


度 。 


加 ” 半 虚 拟 化 (ParaVirtualization) 


统 。 
拟 化 平台 上 。 该 技术 能 够 显著 提升 虚拟 


半 虚 拟 化 技术 又 称 准 虚拟 化 技术 。 该 技术 同样 采用 ， 
不 同 的 是 ， 它 试图 修改 操作 系统 代码 ， 让 客户 操作 系统 本 身 知道 自己 运行 在 一 个 虚 
化 技术 的 IO 


包 时 ， 在 采用 全 虚拟 化 的 情况 下 ， 中 间 
个 操作 系统 上 ， 而 由 于 在 半 虚 拟 化 技术 
平台 上 ,底层 的 中 间 层 可 以 使 月 
要 模拟 人 硬件 中 断 。 由 于 半 虚 拟 化 技术 
需要 对 操作 系统 代码 进行 修改 , 使 得 
该 项 技术 在 非 开源 的 商业 操作 系统 
上 应 用 比较 困难 ,如 Windows。 半 虚 
拟 化 技术 代表 软件 为 Xent9， 


15 
UMILt 等。 


操作 系统 级 别 虚 拟 化 《Opera- 


ting System-level virtualiza- 


tion) 


操作 系统 级 别 虚拟 化 和 以 上 两 
种 虚拟 化 都 不 相同 ， 更 类 似 于 UNIX 
的 Jail 系统 调用 。 它 利用 操作 系统 所 
提供 一 些 机 制 (如 Linux 中 命名 空 
间 )， 将 一 组 进程 放 入 到 “容器 ” 
(container) 中 ， 与 主 操作 系统 的 进 
程 隔 离开 来 , 并 使 用 这 些 机 制 限制 这 
组 进程 的 CPU 和 内 存 占 用 率 ， 从 
而 达到 虚拟 化 技术 中 资源 的 隔离 与 
分 配 的 目的 。 这 类 虚拟 化 技术 只 能 运 
行 在 特定 的 操作 系统 上 【几乎 都 是 
Linux)。 所 有 的 “虚拟 机 ”( 在 该 技 
术 中 , 称 为 Server) 都 共享 一 个 内 核 。 
该 虚拟 化 技术 的 代表 软件 为 


OpenVZ0，Linux-VServer09，LXC09 等 。 操 作 系统 级 别 虚 拟 化 所 带 来 的 


中 ， 


ARP 
响应 报 文 


间 层 来 隔离 底层 硬件 和 操作 系 


性 能 。 例 如 ， 当 网 卡 收 到 一 个 数据 


慨 必 须要 模拟 硬件 中 断 ， 然 后 将 数据 包 传输 到 某 


操作 系统 本 身 就 知道 自己 运行 在 一 个 虚拟 化 


一 定 方式 ， 批 量 地 将 数据 包 传输 给 该 操作 系统 ， 而 不 需 


来 自 设备 (eth0) 


分 类 器 (…) 


ARP* IP in IP IP ARP Other IP 
询问 报 文 “From 43.0.0.6 For 1.0.0.11 响应 报 文 ”For 1.0.0.10 


To Linux 
IP 头 部 封装 


分 类 器 (…) 


1.0.0.10 others 


设置 IP 地 址 
(TO 


ARP 查询 (1.0.0.10,…) 


*Address Resolution Protocol, 
地 址 解析 协议 


图 2.Click 以 太 网 交换 机 
(CEthernet Switch) 配置 


这 
[站 


销 非 


小 。 


但 其 主要 缺点 是 不 能 运行 多 个 异 构 的 操作 系统 。 
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2.3 数据 转发 模块 


(D). Click 


J 


Click 是 一 个 模块 化 的 软件 路 由 器 。 它 将 路 由 器 设计 的 各 个 部 分 模块 化 (Click 称 之 为 “元 


素 ”Element)， 提 供 了 一 种 灵活 的 可 扩展 的 路 由 器 软件 套件 。Click 抽象 出 两 种 操作 ， 将 不 
同 元 素 连接 起 来 。 一 种 称 为 Push， 即 数据 包 由 源 端 处 理 完 毕 后 ， 从 该 连接 的 源 端 传递 到 目 
的 端 ， 一 种 称 为 Pul， 即 连接 的 目的 端 发 起 一 个 请 求 ， 向 源 端 请 求 一 个 数据 包 处 理 。 图 2 是 
一 个 使 用 Click 组 合成 的 以 太 网 交换 机 的 框架 图 。 不 过 ，Click 虽然 能 够 将 数据 包 转发 到 指 


定 的 端口 ， 但 是 并 没有 提供 路 由 计算 的 能 力 。Click 不 能 动态 地 计算 路 由 


Click 软件 套件 对 Linux 内 核 进行 了 修改 ， 提 供 了 轮 询 驱动 方式 ， 能 够 在 普通 网 卡 上 获 
得 小 包 转 发 性 能 的 很 大 提升 。 许 多 关于 软件 路 由 器 的 研究 5 使 用 了 Click 作为 他 们 的 数据 转 


发 模块 。 一 些 路 由 器 软件 ， 如 XORP 等 ， 


也 可 以 将 Click 作为 其 转发 引擎 。RouteBricks 下 


是 使 用 了 Click 的 轮 询 驱动 达到 了 非常 可 观 的 吞吐 率 。 


(2). 硬件 数据 平面 


使 用 专用 硬件 构建 路 由 器 的 转发 模块 , 在 数据 包 转 发 性 能 上 有 软件 不 可 比拟 的 优势 ， 并 


是 这 些 硬件 在 设计 上 还 集成 了 路 由 表 。 使 用 TCAM' 等 硬件 进行 快速 路 由 查找 ， 能 够 大 大 降 


低 CPU 的 负担 。 不 足 之 处 在 于 ， 硬 件 的 资源 十 分 有 限 ， 目 前 容量 最 大 的 TCAM 也 只 能 存储 


件 处 理 。 
2.4 控制 模块 
(1)， 基于 路 由 的 控制 模块 XORP 


汉 德 利 (M. Handley) 等 人 意识 到 现 
有 的 商业 路 由 器 软件 的 封闭 导致 新 协议 的 
实现 和 研究 缺乏 一 个 可 靠 的 测试 平台 ， 因 
此 设计 并 实现 了 XORP， 虽 在 提供 一 个 
放 的 、 可 扩展 的 路 由 器 软件 平台 ， 便 于 研 
究 人 员 部 署 和 实现 新 路 由 协议 。XORP 已 
经 被 工业 界 和 教育 研究 机 构 广 泛 采 纳 。 


XORP 采用 多 进程 机 制 ， 通 过 转发 引 
擎 抽象 层 (Forward Engine Abstract) 将 数 
据 包 的 交换 及 路 由 计算 和 转发 引擎 隔离 开 
来 ， 既 保证 了 和 鲁 棒 性 ， 也 保证 了 开放 性 和 
性 能 。 图 3 是 XORP 的 结构 示意 图 。 图 中 
XORP 使 用 了 Click 作为 转发 引擎 。 


(2)， 基 于 转发 表 的 控制 模块 OpenFlow"” 
OpenFlow 是 斯 坦 福 大 学 提出 的 一 种 


新 的 网 络 体 系 结构 。OpenFlow 采用 主 从 结构 来 进行 网 络 管理 。 在 一 个 OpenFlow 网 络 中 


几 生 条 路 由 表 , 不 能 满足 实际 网 络 中 20~30 万 的 表 项 存储 需求 。 使 用 硬件 作为 数据 转发 模块 
需要 设计 算法 ,构建 “ 快 表 ”， 将 频繁 查找 的 IP 表 项 交 由 硬件 处 理 ， 而 不 频繁 的 表 项 交 由 软 


管理 进程 


PIM-SM* 
IGMP/MLG 
协议 


多 播 路 由 模块 


BGP4 
路 由 协议 模块 
OSPF 
路 由 协议 模块 
RIP 
路 由 协议 模块 
1S-IS+ 
路 由 协议 模块 
单 播 路 由 模块 


+ 中 间 系 统 到 中 间 系 统 的 路 由 选择 协议 Intermediate 
System to Intermediate System 

*Protocol Independent Multicast-Sparse Mode， 
协议 无 关 稀 疏 组 播 模 式 


转发 引擎 
抽象 层 


图 3.XORP 结构 示意 图 


-> 


3 Ternary Content Addressable Memory, 三 态 内 容 可 寻 址 存储 器 
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各 ， 从 设备 〈OpenFlow Switch， 交 换 单元 ) 则 负 


责 数 据 转 发 。 每 个 从 设备 都 包含 一 张 转发 


RR ， 存 储 转 发 规则 。 当 数据 包 匹 配 其 中 一 项 规则 ， 


从 设备 便 按照 规则 将 数据 包 从 它 的 某 个 端口 转发 出 去 ， 当 数据 包 没有 匹配 其 中 任何 一 项 ,从 


设备 便 咨 询 主 控 设 备 ， 获 得 新 的 转发 规则 。OpenFlow 使 用 “十 元 组 ”(MAC 对 ，IP 对 ， 端 
对 ， 等 等 ) 作为 转发 策略 依据 ， 能 够 实现 非常 复杂 的 转发 策略 。 
作 转 发 表 的 API， 能 满足 可 编程 网 络 的 需求 。 


3 ”不同 虚拟 平台 的 转发 性 能 测试 


我 们 根据 虚拟 化 层次 的 不 
同 ， 选 取 了 三 款 主流 虚拟 化 软件 ， 


同时 ， 主 控 设备 开放 了 操 


规格 说 明 


KVM (全 虚拟 化 )，Xen( 半 虚拟 
化 )，OpenVZ (操作 系统 级 别 虚 
拟 化 )， 分 别 进行 了 数据 包 转 发 测 
试 。 实 验 平 台 的 各 项 参数 如 表 1 


Intel Xeon L5420 2 路 四 核 ， 共 8 核 
每 核 一 级 缓存 32K:16K (指令 ) + 16K 
(数据 ) 


四 核 两 两 共享 二 级 缓存 6M 


所 示 。 


DDR2 667M 赫兹 16G 


SuperMicro X7DWU 


3.1 实验 配置 


Intel 82571EB 千 兆 ， 四 


我 们 使 用 Spirent Testcenter 作为 测试 仪表 ， 采 用 RFC 2544 标准 测试 方式 测试 了 不 同 的 


虚拟 软件 的 吞吐 率 。 选 取 的 包 大 小 依次 为 64 字 节 (最 小 包 )、512 字 节 《网 络 中 的 平均 包 大 


小 )、1518 字 节 《最 大 包 )。 同 时 ， 我 们 根据 上 述 实验 结果 ， 又 设计 了 多 虚拟 机 情况 下 的 数 
据 包 吞 吐 率 实验 。 我 们 将 不 同 的 虚拟 机 运行 在 不 同 的 网 段 中 测试 其 总 体 转发 性 能 ， 由 于 
Spirent 仪表 不 支持 这 种 测试 方式 , 我 们 采用 了 另 一 种 方式 表征 吞吐 率 , 基体 说 明 见 3.2.2 节 。 


不 同 的 虚拟 软件 的 网 络 配置 方式 各 有 不 同 ， 我 们 只 选取 桥接 〈Bridge) 模式 的 网 络 配置 
3， 并 分 别 说 明 不 同 虚拟 软件 的 网 络 配 置 情况 。 


来 进行 。 以 下 对 这 些 软 件 做 一 些 简单 的 介 


(DKVM 


KVM， 意 即 内 核 虚拟 机 (Kernel Virtual 
Machine)， 与 主流 虚拟 化 技术 Xen 的 最 大 区 别 
没有 单独 实现 一 个 中 间 层 ， 而 是 向 
将 内 核 作 为 中 间 层 的 一 
种 虚拟 化 技术 。KVM 是 全 虚拟 化 技术 ， 需 要 
CPU 对 虚拟 化 有 一 定 的 支持 ,。 图 4 显示 了 KVM 
的 网 络 配 置 。 图 中 eth x 为 以 太 网 接口 ; tap x 为 
客户 操作 系统 的 以 太 网 网 口 在 中 间 层 上 的 一 个 


在 于 ， 它 # 
内 核 添加 一 两 个 模块 ， 


镜像 网 口 ，Br x 为 桥接 模块 。 
(2). Xen 


Xen 是 剑桥 大 学 开发 的 一 套 半 虚拟 化 软件 , 它 实现 了 一 个 精简 的 ， 


客户 操作 系统 


上 Linux 本 身 作 为 中 间 件 


图 4.KVM 网 络 配 置 


间 层 Hypervisor。Xen 


使 用 术语 Domain( 域 ) 来 描述 虚拟 化 环境 。Xen 具有 两 种 Domain，Dom0 和 DomU。Dom0 


又 称 Driver Domain (驱动 域 )， 运 行 在 该 Domain 上 的 操作 系统 能 够 直接 访问 人 硬件。 运行 在 


4 Media Access Controller， 媒 体 存储 控制 器 


63 


虚拟 软件 路 由 


DomU (客户 域 ) 的 操作 系统 则 必须 通过 Domg0 的 代理 。 
式 ， 分 别 测 试 了 Dom0 和 DomU 的 转发 性 能 。 
中 peth x 为 实际 物理 网 口 ，vif x 为 客户 操作 系统 的 以 太 网 网 


(3). OpenVZ 


OpenVZ 是 Swsoft 公司 专 有 软件 
Virtuozzo 的 开源 版 本 。 它 使 用 一 种 


网 络 接口 对 的 方式 实现 桥接 。 图 
了 OpenVzZ 的 网 络 配 置 性 
x 为 客户 操作 系统 的 


层 上 的 一 个 镜像 网 口 。 


3.2 实验 结果 与 分 析 


驱动 域 


(Domain 0) 


图 5.Xen DomU 网 络 配 置 


6 显示 
情况 。 图 中 veth 
以 太 网 网 口 在 中 间 


3.2.1 原生 操作 系统 Native Linux 测试 


器 数据 包 转 发 


图 5 显示 了 Xen 


FE 能 实验 研究 


SN, 
4 


测试 ! 


的 DomU 


Xen 的 网 络 本 


FF 


kk 


LC 置 采 用 桥接 模 
网 络 配 置 情况 。 


CL 


阔 本 


客户 域 
DomU 


1 


和 一 一 一 一 一 一 一 一 一 一 一 一 一 一 1 一 一 一 一 一 一 一 
Xen 中 间 层 


vet| 


在 中 间 


他 


慨 上 的 一 个 镜像 


vet| 


图 6. OpenVZ 网 络 配置 


表 2 Native Linux 转发 性 能 测试 


我 们 首先 对 没有 采用 任何 

虐 拟 软件 的 系统 平台 (Native 。 帆 长 度 二 理论 最 高 速 
Linux) 进行 了 数据 包 转 发 测试 ， 率 ( 帧 / 秒 ) 
测试 结果 如 下 。 从 测试 结果 可 以 64 26.171 778,898 2,976,190 
看 出 , 普通 网 卡 对 最 小 包 的 转发 512 100 469,924 469,924 
性 能 较 差 。 这 主要 是 由 于 普通 网 1518 100 162,548 162,548 
卡 采取 的 中 断 方式 所 带 来 的 系统 开销 过 大 。 一 些 研究 表明 59， 采取 轮 询 方式 ， 对 小 包 转 发 
能 够 带 来 很 大 的 性 能 提升 。 


3.2.2 虚拟 化 技术 性 能 测试 结果 与 分 析 
表 3 各 种 虚拟 化 技术 转发 性 能 测试 


由 长 度 耕 吐 速率 ( 帧 / 秒 ) 
KVM Xen Dom0 Xen DomU OpenVZ 
64 29,762 611,488 113,452 590,565 
512 31.132 469,924 139,506 469,924 
1518 26,541 162,548 124,831 162,548 
表 3 是 分 别 对 不 同 虚拟 化 软件 的 数据 包 转 发 性 能 测试 后 得 出 的 结果 。 从 结果 中 可 以 看 
出 ， 全 虚拟 化 带 来 的 IO 性 能 开销 非常 大 。 这 主要 是 由 于 数据 包 在 内 核 中 经 过 的 路 径 太 长 ， 


上 下 文 切换 过 多 。 而 半 虚 拟 化 则 


日 


于 
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针对 虚拟 化 环境 做 了 一 定 的 优化 , 性 能 上 相对 于 全 虚 
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拟 化 有 一 定 的 改进 , 但 是 仍然 和 原生 操作 系统 的 性 能 有 较 大 差距 , 而 操作 系统 级 别 的 虚拟 化 
则 由 于 开销 非常 小 ， 除 小 包 转 发 外 ， 在 各 项 数据 上 都 和 原生 操作 系统 非常 接近 。 


3.5 3.5 

国 OpenVZ 30 Em Xen DomU 

Native Linux Xen Domo 
全 2.5 理论 最 大 速率 | 25 | 一 一 人 | DZ Native Linux 
8 2 KXX 理论 最 大 速率 
三 2.0 三 2.0 
儿 " 
由 临 

1.0 1.0 

0.5 0.5 


口 


35 3.5 
3.0 3.0 ] 
B22 
分 
225 co EEHEH Native Linux 
二 [ITUD 理论 最 大 速率 
一 徊 2. 三 2. 
i 
性 1.5 上 1.5 
蛋 
1.0 1.0 
0.5 0.5 
0 0 同时 A _R 
64 512 1518 


包 长 度 〈 字 节 ) 
图 10. 几 种 不 同 技术 性 能 对 比 


根据 实验 结果 ， 我们 认 为， 全 虚拟 化 技术 由 于 虚拟 化 开销 太 大 ， 不 适合 作为 虚拟 路 由 器 
的 虚拟 化 平台 。 半 虚 拟 化 和 操作 系统 级 别 虚 拟 化 各 有 优 缺 点 。 半 虚拟 化 技术 虽然 在 转发 性 能 
上 与 原生 系统 相 比 有 很 大 差距 ， 但 它 提 供 了 更 好 的 隔离 性 和 重 棒 性 。 根 据 实验 结果 ， 我 们 又 
对 Xen 和 OpenVZ 进行 了 多 虚拟 机 情况 下 的 性 能 测试 ， 结 果 如 表 4 所 示 。 表 4 使 用 实际 转 
发 速率 (fps) 与 理论 最 大 转发 速率 的 百分比 表示 性 能 。 


表 4 不 同 虚 拟 机 的 转发 性 能 


虚拟 帧 长 度 虚拟 机 个 数 Native 
机 ( 字 节 ) 1 2 4 8 Linux 
64 1.20% 6.12% 7.54% 8.05% 26.171% 
Xen 512 14.35% 22.73% 29.70% 35.10% 100% 
1518 74.21% 69.62% 60.2% 61.16% 100% 
64 10.48% 10.39% 9.53% 12.66% 26.171% 
ee 512 54.50% 53.84% 52.50% 53.00% 100% 
J 1518 100% 100% 100% 100% 100% 


从 实验 结果 得 出 ， 虚 拟 机 数量 的 不 同 对 于 吞吐 量 的 影响 并 不 大 。 由 此 可 见 ， 提 高 春 吐 率 
的 途径 在 于 缩短 数据 包 的 内 核 路 径 ， 给 虚拟 机 直接 访问 设备 的 能 力 。 现 有 一 些 方法 可 以 显著 
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提升 虚拟 IO 的 性 能 ， 将 在 下 一 章 主 要 介绍 。 


RY 


80| EE 8 虚拟 机 日 
ID Native Linux 


[ey] 
Le) 


吞吐 率 /最 大 速率 (%) 
吞吐 率 /最 大 速率 (9) 


心 
Cy 


20 


SSE 
| 
上 


卢 
ol 
忆 
Co 


图 11. Xen 多 虚拟 机 转发 性 能 图 12. OpenVZ 多 虚拟 机 转发 性 能 


4 ”虚拟 LO 加 速 技术 


4.1 VO 性 能 的 加 速 技术 


上 述 测 试 的 实验 结果 可 以 看 出 , 全 虚拟 化 技术 所 带 来 的 开销 会 对 IO 操作 的 性 能 带 来 影 
响 。 但 是 全 虚拟 化 技术 可 以 让 操作 系统 无 需 修 改 就 可 以 运行 ， 具 有 很 高 的 适用 性 。 研 究 人 员 
对 此 进行 研究 ， 设 计 出 了 一 些 能 够 显著 提升 虚拟 VO 性 能 的 加 速 技术 。 以 下 分 别 加 以 介绍 。 


(1])，Virtio( 半 虚拟 化 VO )2 


Virtio 技术 是 澳大利亚 程序 员 拉 塞 et 
尔 (R. Russell) 设计 并 实现 的 ， 旨 在 给 本 
Linux 操作 系统 中 越 来 越 多 的 虚拟 化 软 -一 ~ 
a g | 后 台 驱 动 | | 后 台 驱 动 | 
件 提 供 一 套 标准 化 的 半 虚 拟 IO 接口 。 设备 仿 凌 - 生态 真 | 
半 虚 拟 化 IO 能 够 让 客户 操作 系统 意识 KVM (Linux 中 间 层 ) lguest (Linux 中 间 层 ) 
CS 基础 上 采用 一 定 的 优化 措施 ， 提 升 客户 
©O 采用 一 定 的 优化 措施 ， 提 升 客户 图 13， 半 虚拟 化 VO 技术 原理 


操作 系统 的 IO 性 能 。 图 13 是 半 虚 拟 化 
IO 的 原理 图 。 目 前 ，KVM 支持 该 虚拟 WO 加 速 技术 。 


(2)，Intel VT-d 技术 与 SR-IOV 技术 


尽管 半 虚 拟 化 IO 技术 能 够 提升 客户 操作 系统 的 IO 性 能 ,但 仍然 存在 上 下 文 开销 过 高 
等 问题 ,解决 问题 的 关键 在 于 取消 中 间 层 的 代理 , 让 客户 操作 系统 能 够 直接 访问 到 物理 设备 。 
具体 说 来 ， 直 接 访问 物理 设备 可 以 划分 为 两 个 问题 : 1) 对 客户 操作 系统 的 设备 缓冲 区 内 存 
直接 访问 (DMA Remapping)。2 ) 中 断 重 映射 。Intel VT-d 技术 (Intel Virtualization Technology 
for Directed IO) 解决 了 以 上 两 个 问题 。 如 图 14 所 示 : 图 中 左 半 部 表示 的 是 全 虚拟 化 IO， 
需要 由 中 间 层 代理 ， 客 户 操作 系统 才能 访问 底层 硬件 ， 而 右 图 中 由 于 DMA Remapping 的 存 
在 ， 底 层 便 件 能 够 直接 将 数据 写 到 客户 操作 系统 的 缓冲 区 内 ， 使 得 IO 性 能 接近 原生 操作 系 
统 的 性 能 。 


VT-d 技术 提供 了 数据 由 底层 硬件 到 客户 操作 系统 的 直接 通路 , SR-IOV (Single-Root IO 
Virtualization,， 单 根 读 写 虚拟 化 ) 则 提供 了 将 单个 设备 虚拟 成 多 个 设备 的 方法 。SR-IOV 为 每 
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个 虚拟 机 提供 独立 内 存 空间 、 中 断 资源 。SR-IOV 引入 了 两 个 新 的 功能 类 型 : 物理 功能 
(Physical Functions, PFs〉 和 和 虚拟 功能 《Virtual Functions，VFs ) 。 


庶 拟 机 (0) 


虚拟 机 (n) 


用 程序 | | 应 用 程序 


客户 操作 系统 
虚拟 设备 驱动 


度 也 机 监督 程序 或 宿主 探 作 系 统 i i 
虚拟 机 只 督 程序 或 宿主 操作 素 统 


虚拟 设备 模拟 层 


真实 设备 驱动 A 
基于 软件 的 MO 虚拟 化 样 例 直接 I/O 映 射 


图 14. 对 客户 操作 系统 的 设备 缓冲 区 内 存 直 接 访问 
加 物理 功能 (Physical Functions，PFs) 这 是 一 
些 支 持 SR-IOV 扩展 功能 的 PCIe 功能 ， 被 

用 于 配置 和 管理 SR-IOV 功能 特性 。 
图 ”虚拟 功能 (Virtual Functions，VFs) 这 是 一 
些 “ 精 简 ” 的 PCIe 功能 ， 包 括 数据 迁移 必需 


RY 、 、\、 二 -HE 业主 Ar ed wr» > NI | 
的 资源 ， 以 及 经 过 谨慎 精简 配置 的 资源 集 。 VU | 
SR-IOV 架构 的 设计 允许 一 个 IO 设备 支持 多 个 PFIVFIVE 


BE per 


虚拟 功能 。 从 而 提供 了 一 种 不 需要 软件 模拟 就 可 以 共 


虚拟 功能 
享 IO 设备 和 IO 端口 的 物理 功能 的 方法 。 图 15 是 计时 


SR-IOV 的 架构 示意 图 。 所 一 一 直接 内 存 访问 CDMA) 和 中 断 
a 初始 化 、 配 置 
(3)，PCI Passthrough 技术 :外 设 互 连 管理 


PCI Passthrough 是 Xen 开发 人 员 开 发 的 客户 虚拟 VM: 虚拟 机 ; IOVM: 读 写 虚 拟 机 
操作 系统 直接 访问 设备 的 技术 。 主 要 原理 是 利用 软件 
模拟 IOMMU', 使 得 客户 操作 系统 能 越过 中 间 层 访问 
设备 。 和 VT-d 技术 相 比 ，PCI Passthrough 的 优势 在 于 ， 前 者 是 一 种 从 硬件 上 支持 IOMMU 
的 技术 ， 尚 未 广泛 普及 ， 而 后 者 则 从 软件 层面 支持 了 IOMMU， 可 以 为 不 支持 VT-d 的 系统 
进行 VO 性 能 优化 。 


(4).， 软件 路 由 器 的 一 些 设计 经 验 
国 RouteBricks 设计 经 验 RouteBricks 主要 使 用 三 种 手段 优化 了 单个 路 由 器 的 转发 性 

能 : 第 一 ， 使 用 轮 询 方式 代替 传统 硬件 的 中 断 方式 ， 极 大 地 提高 了 通用 硬件 对 64 

字 节 小 包 的 转发 性 能 ， 第 二 ， 采 用 批 处 理 的 方式 ， 每 次 总 线 事务 (bus transaction ) 

都 传递 多 个 数据 包 的 地 址 ， 从 而 充分 利用 了 PCIe 的 总 线 带 宽 ;， 第 三 ， 利 用 网 卡 的 

多 队列 特性 ， 将 不 同 队列 与 不 同 核 进行 绑 定 ， 极 大 地 提升 了 数据 处 理 的 并 行 性 。 使 


图 15. SR-IOV 架构 示意 图 


5 Peripheral Component Interconnect Express， 新 一 代 的 PCI 总 线 接 
6 input/output memory management unit， 读 写 内 存 管理 单元 
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用 以 上 三 种 手段 ， 可 以 使 得 单 台 服务 器 的 64 字 节 小 包 转 发 速率 达到 9.77Gbps。 


器 数据 包 转 发 性 能 实验 研究 


图 ”PacketShader 设计 经 验 PacketShader 对 Linux 的 内 核 协议 栈 进行 了 优化 ， 将 内 核 


中 表示 数据 包 的 结构 体 sk_buff 
式 , 极 大 地 提升 了 数据 包 处 理 怕 
包 吞 吐 量 提升 到 10.5Gbps， 性 能 提升 13.5 倍 。PacketShader 同 
队列 的 特性 ,并且 考虑 到 其 采 月 


原来 的 208 字 节 减少 为 8 字 节 ， 采 用 批 处 理 的 方 


EF 能。 实验 表明 ， 仅 采用 这 种 优化 手段 ， 可 以 将 数据 


时 也 利用 了 多 核 多 


日 的 架构 为 NUMA( 非 一 致 性 内 存 访问 ), 针对 数据 包 


的 分 发 均衡 性 和 提升 数据 局 部 性 做 了 精心 优化 ， 使 其 整体 转发 性 能 达到 40Gbps。 
4.2 虚拟 WO 加 速 技术 性 能 评估 


本 节 对 VT-d 技术 ， 半 虚拟 化 IO 技术 ，PCI Passthrough 技术 所 带 来 的 1O 性 能 提升 进 


行 评估 。 使 用 了 RFC2544 标准 吞吐 率 测试 方法 进行 了 测试 。 此 外 ， 对 半 虚 拟 化 1/O 还 进行 


了 IPerft*“ 带 宽 测 试 。 由 于 Xen 不 支持 Virtio,， 我 


门 的 实验 平台 上 也 无 法 为 Xen 打开 VT-d 的 


技术 支持 ， 我 们 最 终 在 KVM 上 实验 了 VT-d 技术 和 Virtio 的 技术 ， 在 Xen 上 测试 了 PCI 


Passthrough 技术 。 


表 5KVM 测试 结果 


吞吐 率 ( 帧 / 秒 ) 


表 6 PCI Passthrough 测试 结果 


吞吐 率 ( 帧 / 秒 ) 


帧 长 度 ee 帧 长 度 Xen DomUt+ 
KVM virtio KVM VT-d Xen DomU 
PCI passthrough 
64 113,452 841,696 64 113,452 230,650 
512 89,943 413,750 512 139,506 222,110 
1518 69,970 162,548 1518 124,831 162,548 


EA Native Linux 
HHH 理论 最 大 速率 


速率 (Mfps) 


了 内 区 


Passthrough 
Native Linux 
四 区 YX3 理论 最 大 速率 
二 2 
网 1.5 
1.0 
0.5 
0 


64 


512 
包 长 度 〈 字 节 ) 


1518 


图 16. 16 KVM IO 加 速 图 17. PCI Passthrough 软件 模拟 
表 7KVM 半 虚 拟 化 VO 的 IPerf 带宽 测试 
KVM KVM virtio 
单 向 双向 单 向 双向 
117Mbps 555Mbps 
带宽 210Mbps 749Mbps 
332Mbps 517Mbps 
实验 结果 表明 ， 半 虚拟 化 WO 技术 对 于 客户 操作 系统 来 说 ， 确 实 能 提高 TCP 传输 的 带 


宽 ， 但 是 对 于 数据 包 转 发 ， 性 能 提升 则 是 有 限 的 。VT-d 技术 则 给 客户 操作 系统 直接 访问 设 
备 便 件 的 能 力 ， 能 够 获得 接近 原生 操作 系统 的 转发 性 能 ， 将 虚拟 化 所 带 来 的 开销 降 至 最 低 。 
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PCI Passthrough 技术 由 于 软件 模拟 的 开销 ， 所 提供 的 性 能 则 在 两 者 之 间 。 


5 ”结束 语 


本 文 围绕 虚拟 路 由 器 这 一 概念 分 别 探 讨 了 几 种 虚拟 化 技术 、 与 之 相关 的 WO 加 速 技 术 以 


及 业界 广泛 认可 几 种 可 扩展 路 由 器 软件 ,并 在 此 基础 上 , 测量 了 几 敌 具有 代表 意义 的 虚拟 化 
软件 的 转发 性 能 ， 对 虚拟 路 由 器 的 研究 和 设计 具有 局 发 意义 。 实 验 结果 表明 ， 操 作 系 统 级 别 
的 虚拟 化 技术 所 引入 的 额外 开销 最 小 , 然而 该 项 技术 由 于 其 虚拟 化 程度 较 低 , 使 用 起 来 有 一 
定 的 局 限 性 。 采 用 VT-d 等 硬件 文 持 的 虚拟 化 技术 能 够 使 运行 在 全 虚拟 化 环境 下 的 客户 操作 
系统 获得 原生 的 IO 效率 ， 同 时 又 保持 了 虚拟 化 层次 高 的 优势 。 虽 然 现 有 的 虚拟 路 由 器 的 设 
计 均 是 采用 OpenVZ 等 轻 量 级 虚拟 化 技术 ， 但 可 以 预期 ，VTd 和 SR-IOV 技术 将 会 对 虚拟 


路 由 器 的 设计 带 来 较 大 影响 。 


前 的 研究 中 ,并 没有 使 用 通用 平台 搭建 的 虚拟 路 由 器 , 大 部 分 已 有 研究 均 使 用 专用 
硬件 来 降低 虚拟 化 开销 , 并 采用 OpenVZ 等 轻 量 级 虚拟 系统 来 进一步 降低 虚拟 化 开销 。 然 而 ， 
于 SR-IOV 等 技术 的 出 现 ， 虚 拟 化 开销 已 经 被 降 至 最 低 ， 因 此 一 些 软件 路 由 器 提高 VO 性 


在 


SR-IOV 技 
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